CHARLS 抽样以保证样本的无偏和代表性为宗旨,通过四个阶段,分别在县(区)-村(居)-家户-个人层面上进行抽样。具体而言,在县(区)-村(居)两级抽样中,CHARLS均采用按人口规模成比例的概率抽样,简称为PPS抽样(probabilities proportional to size)。在县级抽样阶段,按照PPS方法,以每个区县2009年人口数量为基础,使用地区、城乡和GDP为分层指标,直接从全国30个省级行政单位(不包括西藏自治区、台湾省以及香港和澳门特别行政区)范围内随机抽取150个区县;在村级抽样阶段,按照PPS方法,以每个村或社区2009年常住人口为基础,从上述150个区县中各随机抽取3个村或社区,最后得到450个村/社区。以上抽样过程均在STATA软件环境中进行,不允许换样本。为了避免人口信息的偏差,抽样时我们对450个村级单位的2009年常住人口数据与2007年数据进行了比对。对于两年人口数据差别超过一定限度的村或社区,向统计局进行了核实。同时,对于抽中的村或社区,通过中国疾控中心发文到全国进行核实,进一步保证了抽样的质量。
在村/社区抽样完成后,为得到准确的家户样本抽样框,中国健康与养老追踪调查项目设计并开发了专用的绘图软件(简称CHARLS-GIS)以进行实地绘图并搜集住户信息。该软件利用清晰的Google Earth影像图或者其它途径的图片作为底图。在实地工作中,绘图员首先携带GPS在村的边界外走一圈来确定样本村/居委会的边界;其次,根据实地情况依次在底图上勾画建筑物,导入建筑物GPS位置并进行拍照;之后,填写建筑物内住户信息列表。在绘图和列表工作完成后,CHARLS北京总部与每个村(居)联络人联系,并对以下三方面进行审核:(1)边界是否准确;(2)是否所有建筑物都包括在内;(3)住户列表是否准确(通过随机抽取住户核对他们的地址进行)。
通过审核后,从每个样本村/居委会的所有住户信息列表中随机抽取80户样本家户,并对这80户进行入户询问、核实家里最长家户成员的年龄、户主的姓名、联系方式、家户状态(是否空户、无法联系)。之后,根据2008年CHARLS甘肃和浙江试调查的拒访率,按照每个村(居)24户有效家户估算需要抽中的样本户数量并在80户内进行相应数量的样本抽取。最终在450个村、居抽取的样本户为23590户。抽样完成后,抽中的住户会在地图上自动显示,绘图员会重新访问这些户,对住户门口拍照,取GPS位置,送《致居民的一封信》。
在个人层面,我们利用过滤问卷进行调查,在每个样本户中随机选择一位年龄大于45岁的家庭成员作为主要受访者,对他(她)及其配偶进行访问。
最终调查有效样本17587人,具体分布见下面表格(%)。
性别户口地域分布 年龄分组总计男性女性城镇农村城镇农村 50-25.7723.4227.9123.7926.5627.3524.18 51-5515.4916.0015.0214.0616.0715.1115.87 56-6019.0019.3218.6918.6819.1218.6519.34 61-6513.8814.7813.0714.1313.7813.1914.58 66-709.6210.209.089.829.539.0210.21 71-757.177.846.569.516.237.646.70 76-804.674.734.615.324.404.604.73 80+4.413.715.054.694.304.444.38 总计(人)17,5878,4369,1513,87213,7157,10610,481数据不包括缺失年龄、性别以及户口等信息的受访者